メタ強化学習(Meta RL)

強化学習(Reinforcement Learning; RL)は、試行錯誤を通じて累積報酬を最大化するポリシー(policy)を学習する枠組み

従来のRL（特にDeep RL）は、単一のタスクを習得するために膨大なサンプルデータを必要とする「サンプル非効率性」が実用上の大きな障壁となっていた

これに対し、メタ強化学習(Meta RL)は、人間が過去の経験を活かして新しいスキルを即座に習得するように、AIエージェントに「適応能力」そのものを学習させるアプローチである

https://www.youtube.com/watch?v=c0vSwglRY4w